Add Support for Efficient Inference #47

elvircrn · 2024-09-11T12:50:42Z

This PR adds support for the following:

Efficient SPQR CUDA-based matvec kernel implementation for a subset of paramaters
Integration of said kernel for end-to-end inference
Kernel benchmarks
End-to-end inference demo and benchmarks

.gitignore

convert_to_hf.py

inference_demo.py

spqr/__init__.py

spqr/mul_ops.py

spqr/profile_spqr.py

spqr/spqr/spqr_cuda.cpp

spqr/spqr/torch_bench.cu

Vahe1994

Great work! Thank you!

elvircrn added 9 commits August 29, 2024 18:01

End-to-end integration

9069b58

Adds initial support for CUDA inference

a12e91f

Bugfixes

0e195b4

Demo ready

6ade617

Demo ready

5ad861d

Remove absolute path

dc5ad18

Rename spqr -> inference in benchmarks

737f0b3

Update benchmark code

9c587b4

Dead code removal

ff55c85

elvircrn marked this pull request as draft September 12, 2024 13:59

elvircrn added 20 commits September 14, 2024 21:53

Trying out a new fused kernel implementation

dbb7164

Fused kernel getting there...

9f9a3ec

Major fused kernel improvements

6e33f72

Make the fused kernel more async

e91263f

Fused kernel WIP

2474292

Fused kernel mean speed-up over 3X

2916175

Done developing the fused kernel

9533f71

Get rid of absolute paths

3d49eb3

Start work on reorder optimization

a9d586a

Get ready for end-to-end benchmarks

e95d292

WIDTH=16

12f1b7d

WIDTH=16

8bc942f

Increase pipeline depth

6b0ecbf

GPU specialization

7059d1c

Reenable pipelining

192a356

Try setting block size to 32

eddac7d

Try setting block size to 64

99347d9

Try disabling the LUT

7bda888

Try returning early

15a1e2c

Try returning earlier

e2c7337

elvircrn added 12 commits November 11, 2024 20:20

Ramp down thread count

25d4f80

Resolve critical bug

77b5392

Ramp up the thread count

fc930ba

Ramp up the thread count

53cbccc

Fix benchmarking bug

9d6a157

Reduce thread count

4cbd7b5

Change thread count

8daecb1

Finalize thread count

5206238

Resolve all ptcsr bugs

63a525c

Finalize benchmark updates

f007655

Finalize benchmark updates

eb46401

Finalize HF support

2529106